Projet INFMDI721 - Paul de MIRIBEL

Import librairie

Webscrapping des données

Fusion des fichiers .xlsx + stockage au format .csv

Data Mining

Data cleaning : .csv

Data cleaning : df classement évolutif

Data cleaning : df classement final

Merge des df classement et dfc

Desciptif des contenus des colonnes

Explication pour chaque colonne :

indice 30 = moyenne sur les 30 dernières minutes indice L = moyenne depuis le dernier classement (toutes les 4 heures à peu près) indice 24h = moyenne sur les dernières 24h

Conversion : Vnoeuds = 1,85185 km/h Dnoeuds = 185185 m

Data Science :

Story telling : Visualisons le parcours des skippers et attardons nous à l'étude du parcours des skippers ayant abandonnés la course.

Story telling :

On observe que sur les 8 skippers qui ne sont pas allés au bout de la course, 5 ont abandonné à peu de chose près au niveau des mêmes latitudes, proche des côtes de l'Afrique du Sud. Simple coïncidence ou zone difficile du parcours ?

Voici les raisons des abandons :

D'après mes recherches tous les skippers sauf Kevin Escoffier semblait confiant sur leur capacité à poursuivre la course si il s'agissait d'une zone moins périlleuse. En effet, ils allaient entamer la partie la plus ardue du Vendée Globe avec l'Antarctique et le Cap Horn au Sud de l'Amérique du Sud.

Nous pouvons conclure que ce n'est pas une coincidence si les skippers ont abandonné aux abords du Cap de Bonne Espérance.

Story telling : Nous étudions ici 3 vitesses différentes. Rapellons le sens de chacune d'elle.

Le premier graphe nous donne une tendance qui semble logique : vitesse et classement final sont corrélés. Le deuxième graphe confirme cela et montre que les marins qui vont le plus vite sur l'eau sont ceux qui arrivent en premier. Le troisième graphe est très intéressant, il montre que certains marins ont une vitesse sur le fond plus importante mais que cela n'implique pas forcément une meilleure position au classement. Cela siginifie qu'ils ont plus souvent bénéficiés de courant en leur faveur.

Etudions le trajet de Thomas Ruyant et Jean le Cam pour observer ces différences. Thomas Ruyant a une vitesse sur le fond plus élévé mais pourtant il est arrivé après Jean Le Cam. Nous nous attendons donc a observer que Thomas Ruyant a privilégié la stratégie suivante : suivre les courants quitte à faire un trajet plus long.

Thomas Ruyant a en effet parcouru un distance sur le fond bien plus importante que Jean le Cam, environ 1674 nm.

Calculons maintenant leurs temps de course respectifs. Pour cela, rapellons leurs vitesses moyenne sur le fond respective :

Au vue de ces résultats une question se pose, comment Jean Le Cam peut-il prétendre à la 3ème place si il a mis plus de temps que Thomas Ruyant (5ème) pour terminer la course?

(Après recherche sur internet) Jean Le Cam a fait un détour pour porter secours à un autre skipper, Kevin Escoffier, et il a donc bénéficié de 16h et 15 minutes de compensation. Cela explique pourquoi Jean le Cam s'est finalement placé en 3ème position.

Sur cette représentation il est possible de voir que les parcours de Kevin Escoffier et Jean Le Cam se retrouve à la position : lat =-40,95, long=9,27.

Ces premières observations post-traitement des données permettent d'identifier des éléments de course invisible à vue d'oeil. Une étude plus approfondie avec des algorithmes de clustering, classification pourrait mettre en relief d'autres comportements et caractéristiques de la course du Vendée Globe.